用 Python 抓一些网上的文本

一年多以前，写过一篇《手动抓一些网上的文本资料》的文章，只是当时还不会用 Python。现在用 Python 重新抓一次。大概的工作流程是： a）获取网页的链接–> b）获取网页的内容具体案例来说，《好公民报（Raia Mwema）》每一期都有一个单独的页面，这个页面又都包含这一期所有新闻作为一个单独页面的链接。所以具体的流程就变成了： a）获取每一期页面的链接–> b）获取每一期的内容-> c）获取每一期里每条新闻的链接 -> d) 获取每一条新闻的内容 [code language=”python”] #做出每一期页面的链接 toleoN="http://www.raiamwema.co.tz/toleo/" toleoC=1 toleoList=[] import urllib2 import time while toleoC<=3: s=str(toleoC) s=toleoN+ "0"*(3-len(s))+s toleoList.append(s) toleoC+=1 #抓取这一期的内容# while toleoList: toleo=toleoList.pop(0) print "approching issue "+str(toleoC-1) response=urllib2.urlopen(toleo) #收集这一期具体新闻的页面链接 line=response.readline() makalaC=1 while line: if line.count("toleo-page-title"): pA=line.find(‘<a href="’) pB=line[pA+1:].find(">") makala=line[pA:pA+pB].replace(‘<a href="’,’http://www.raiamwema.co.tz’)+"\n" print makala … Continue reading 用 Python 抓一些网上的文本